查看原文
其他

MusePose和Follow-Your-Pose:腾讯发布的姿势驱动人物动作

renee创业狗 Renee 创业随笔
2024-10-09

上个月,我们介绍了几个让 Avatar 说话或做表情的技术。这几天,我们来看看姿势驱动人物的一些技术。

之前分享过一些让图片舞动💃的技术,例如:

这次我们再介绍两个腾讯发布的相关的技术:

MusePose

简介:MusePose 是一个由姿势驱动的图像到视频框架,用于虚拟人类生成。

链接:https://github.com/TMElyralab/MusePose

团队:和之前介绍的 MuseTalk 一样,应该是腾讯内部的一个团队开发的。MusePose 是 Muse 开源系列的最后一个模块。结合 MuseV 和 MuseTalk,我们希望社区能够加入我们,共同迈向一个可以端到端生成具有全身运动和互动能力的虚拟人的愿景。请继续关注我们的下一个里程碑!

场景

Model Architecture

MusePose 是一个在控制信号(如姿势)下,将图像生成视频的框架。目前发布的模型是通过优化 Moore-AnimateAnyone 实现的 AnimateAnyone。

ComfyUI支持
还可以支持 ComfyUI:https://github.com/TMElyralab/Comfyui-MusePose

Follow-Your-Pose

简介:Follow-Your-Pose 是 "Follow-Your-Pose: Pose-Guided Text-to-Video Generation using Pose-Free Videos" 论文的官方实现。

链接:https://github.com/mayuelala/FollowYourPose

团队:与之前介绍的 Follow-Your-Emoji 是同一作者开发的,由清华大学(Tsinghua University)、清华深圳国际研究生院(Tsinghua Shenzhen International Graduate School)、香港科技大学(HKUST)和腾讯 AI 实验室(Tencent AI Lab)联合研发。

场景

Model Architecture

Follow-Your-Pose 模型架构包括一个两阶段训练策略:

  1. 第一阶段训练:训练姿势编码器 Ep 以学习姿势控制。
  2. 第二阶段训练:训练时间模块,包括时间自注意力(SA)和跨帧自注意力。

在推理过程中,通过提供目标角色的描述文本和动作姿势序列,生成时间连贯的视频。预训练的稳定扩散模型的大部分参数都是冻结的,包括伪3D卷积层、跨注意力(CA)和前馈网络(FFN)模块。

继续滑动看下一个
Renee 创业随笔
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存